Telegram Group & Telegram Channel
📈 Холивар: NumPy против pandas против PySpark — кто рулит в данных

Дата-сайентисты, делитесь: чем копаете свои миллионы строк?

🐍 NumPy — минимализм и математика
• Основа всех ML-библиотек.
• Векторы, матрицы, broadcasting — строго, быстро, эффективно.
• Если ты знаешь np.dot и np.linalg, тебя зовут в глубины ML.

Но:
• Строгая типизация и отсутствие удобных табличек.
• Хотел сделать фильтр по колонке? Сначала reshape.
IndexError: too many indices — старая знакомая.

📊 pandas — король табличек
df.head() — и ты уже видишь суть.
• Гибкость, группировки, фильтрации — словно Excel на стероидах.
• Подходит и для EDA, и для препроцессинга.

Но:
• Большой датасет? Привет, out of memory.
• Интуитивно, но не всегда предсказуемо.
SettingWithCopyWarning — и ты не уверен, изменил ли что-то вообще.

🔥 PySpark — big data и кластеры
• Когда данных слишком много для pandas.
• Распределённые вычисления, lazy evaluation, Spark SQL.
• Подходит для продакшена, когда ноутбук уже плачет.

Но:
• Стартуем JVM… подождите немного.
• Написал три строчки — получил лог на 300 строк.
• Не для быстрых экспериментов.

А вы кто: numpy-ниндзя, pandas-мастер или spark-инженер? Или по чуть-чуть от каждого?
Инструкция о том, как оставить комментарий: https://www.tg-me.com/ru/Библиотека data scientist’а | Data Science Machine learning анализ данных машинное обучение/com.dsproglib/6244

Библиотека дата-сайентиста #междусобойчик



tg-me.com/dsproglib/6430
Create:
Last Update:

📈 Холивар: NumPy против pandas против PySpark — кто рулит в данных

Дата-сайентисты, делитесь: чем копаете свои миллионы строк?

🐍 NumPy — минимализм и математика
• Основа всех ML-библиотек.
• Векторы, матрицы, broadcasting — строго, быстро, эффективно.
• Если ты знаешь np.dot и np.linalg, тебя зовут в глубины ML.

Но:
• Строгая типизация и отсутствие удобных табличек.
• Хотел сделать фильтр по колонке? Сначала reshape.
IndexError: too many indices — старая знакомая.

📊 pandas — король табличек
df.head() — и ты уже видишь суть.
• Гибкость, группировки, фильтрации — словно Excel на стероидах.
• Подходит и для EDA, и для препроцессинга.

Но:
• Большой датасет? Привет, out of memory.
• Интуитивно, но не всегда предсказуемо.
SettingWithCopyWarning — и ты не уверен, изменил ли что-то вообще.

🔥 PySpark — big data и кластеры
• Когда данных слишком много для pandas.
• Распределённые вычисления, lazy evaluation, Spark SQL.
• Подходит для продакшена, когда ноутбук уже плачет.

Но:
• Стартуем JVM… подождите немного.
• Написал три строчки — получил лог на 300 строк.
• Не для быстрых экспериментов.

А вы кто: numpy-ниндзя, pandas-мастер или spark-инженер? Или по чуть-чуть от каждого?
Инструкция о том, как оставить комментарий: https://www.tg-me.com/ru/Библиотека data scientist’а | Data Science Machine learning анализ данных машинное обучение/com.dsproglib/6244

Библиотека дата-сайентиста #междусобойчик

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tg-me.com/dsproglib/6430

View MORE
Open in Telegram


Библиотека data scientist’а | Data Science Machine learning анализ данных машинное обучение Telegram | DID YOU KNOW?

Date: |

Tata Power whose core business is to generate, transmit and distribute electricity has made no money to investors in the last one decade. That is a big blunder considering it is one of the largest power generation companies in the country. One of the reasons is the company's huge debt levels which stood at ₹43,559 crore at the end of March 2021 compared to the company’s market capitalisation of ₹44,447 crore.

The SSE was the first modern stock exchange to open in China, with trading commencing in 1990. It has now grown to become the largest stock exchange in Asia and the third-largest in the world by market capitalization, which stood at RMB 50.6 trillion (US$7.8 trillion) as of September 2021. Stocks (both A-shares and B-shares), bonds, funds, and derivatives are traded on the exchange. The SEE has two trading boards, the Main Board and the Science and Technology Innovation Board, the latter more commonly known as the STAR Market. The Main Board mainly hosts large, well-established Chinese companies and lists both A-shares and B-shares.

Библиотека data scientist’а | Data Science Machine learning анализ данных машинное обучение from ru


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM USA